Đề xuất (Proposal)

Nhóm 13

Thành viên

  1. Nguyễn Minh Sơn - 20110713
  2. Lê Anh Nhân - 20110689
  3. Đỗ Minh Dũng - 20110620
  4. Nguyễn Thái Ngọc Tân - 20110719

Phần 1: Giới thiệu

Tên đề tài: Phân tích tình hình dịch bệnh Covid-19

Đại dịch covid-19 xuất hiện từ cuối năm 2019, cho đến nay nó đã lan rộng ra hầu hết các quốc gia và vùng lãnh thổ trên thế giới, gây thiệt hại nghiêm trọng về mọi mặt. Mặc dù đã có vaccine phòng ngừa covid-19 nhưng dịch bệnh này vẫn còn hoành hoành ở nhiều quốc gia, liên tục xuất hiện các biến thể mới nguy hiểm. Vì thế, nhóm đã chọn tập dữ liệu liên quan đến vấn đề này để phân tích tình hình dịch bệnh covid-19.

Nguồn dữ liệu chính

Nhóm em đã tham khảo các nguồn dữ liệu về dịch bệnh Covid-19 và đã chọn được tập dữ liệu mà nhóm cảm thấy phù hợp.

Link dataset: COVID-19 dataset Dataset coronavirus pandemic

Nhóm sẽ phân tích tình hình dịch bệnh covid-19 dựa trên số ca mắc, số ca tử vong và số lượng người đã tiêm phòng vaccine, sau đó sẽ đưa ra các nhận xét cũng như dự đoán về đại dịch Covid-19 này ở thời gian tới.

Các biến trong dataset nhóm sử dụng: [

    continent,
    location,
    date,
    total_cases, 
    new_cases,
    total_cases_per_million,
    new_cases_per_million,
    total_deaths,
    new_deaths,
    total_deaths_per_million,
    new_deaths_per_million,
    total_vaccinations,
    people_vaccinated,
    people_fully_vaccinated,
    people_fully_vaccinated_per_hundred,
    population

]

Câu hỏi nghiên cứu chung

  1. Các ca mắc Covid-19 có sự khác biệt giữa các châu lục hay không ?

  2. Có phải các nước có nền kinh tế phát triển, thu nhập cao thì dịch bệnh Covid-19 sẽ ít nghiêm trọng hơn so với có nền kinh tế phát triển kém hơn, thu nhập thấp hơn không ?

  3. Dân số có phải là nguyên nhân dẫn tới việc gia tăng số ca mắc ở các nước châu Á ?

  4. Khi vaccine được phổ biến, điều đó có giúp ích cho việc chống đại dịch Covid-19 trên thế giới ?

  5. Biến thể Omicron xuất hiện vào 24/11/2021 có gây nguy hiểm không ? So sánh với biến thể Delta xuất hiện trước đó ?

  6. Ở các châu lục, trước và sau khi tiêm vaccine, tỉ lệ tử vong của dịch bệnh Covid-19 như thế nào?

  7. So với các bệnh như SARS, EBOLA, MERS, H1N1 thì dịch Covid-19 có nghiêm trọng hơn ?

Phần 2: Dữ liệu

1. Mô tả dữ liệu

File dữ liệu: owid-covid-data.csv

Giải thích các biến sử dụng

Biến Mô tả
continent Tên châu lục
location Tên nước
date Ngày quan sát
total_cases Tổng số ca mắc covid 19 đã được xác nhận
new_cases Số ca mắc mới covid 19 theo ngày đã được xác nhận
total_cases_per_million Tổng số ca mắc covid 19 đã được xác nhận trên 1,000,000 người
new_cases_per_million Số ca mắc mới covid 19 theo ngày đã được xác nhận trên 1,000,000 người
total_deaths Tổng số ca covid 19 tử vong đã được xác nhận
new_deaths Số ca covid 19 tử vong mới theo ngày đã được xác nhận
total_deaths_per_million Tổng số ca covid 19 tử vong đã được xác nhận trên 1,000,000 người
new_deaths_per_million Số ca covid 19 tử vong mới theo ngày đã được xác nhận trên 1,000,000 người
total_vaccinations Tổng số liều vaccine
people_vaccinated Tổng số người tiêm ít nhất một mũi vaccine
people_fully_vaccinated Tổng số người tiêm đủ liều vaccine theo quy định
people_fully_vaccinated_per_hundred Tổng số người tiêm đầy đủ vaccine theo quy định mỗi 100 người
population Tổng dân số

2. Exploration Data Analysis

Import library

Đọc và làm sạch dữ liệu

Lấy các biến cần thiết
Thay đổi tên các biến
Kiểm tra dữ liệu
Các khu vực không có tên châu lục

Các giá trị trong cột location của datatframe thường là tên các quốc gia. Nhưng giá trị trong cột này lại là tên các châu lục hoặc các liên minh kinh tế trên thế giới (đây là tổng hợp chung tình hình dịch bệnh cho các khu vực đó), nên các cột continent tương ứng đã nhận giá trị NaN.

Các khu vực không có thông kê dân số

Một số khu vực trên thế giới như International, Northern Cyprus chưa có thống kê về dân số trong tập dữ liệu, nên nhóm sẽ bỏ qua 2 khu vực này.

Clean Data

Còn lại những cột có dữ liệu bị để trống (NULL) vì vào thời điểm quan sát thì có thể chưa xảy ra ca tử vong, chưa có ca mắc hoặc chưa có vaccine để tiêm phòng...

Vì thế, nhóm sẽ làm sạch dữ liệu của các cột nhận giá trị NaN khác bằng cách điền số 0

Thời gian thu thập dữ liệu về dịch bệnh
In dữ liệu

Hình thái dữ liệu

10 quan sát đầu tập dữ liệu

10 quan sát cuối tập dữ liệu

Phần 3: Kế hoạch phân tích dữ liệu

1. Các biến kết quả (phản hồi, Y) và dự đoán (giải thích, X) sử dụng để trả lời câu hỏi

  1. Các ca mắc Covid-19 có sự khác biệt giữa các châu lục hay không ? (X: Date, Continent, Total Cases) (Y: True/False)

  2. Có phải các nước có nền kinh tế phát triển, thu nhập cao thì dịch bệnh Covid-19 sẽ ít nghiêm trọng hơn so với có nền kinh tế phát triển kém hơn, thu nhập thấp hơn không ? (X: Continent, Location, Total Cases, Total Deaths) (Y: True/False)

  3. Dân số có phải là nguyên nhân dẫn tới việc gia tăng số ca mắc ở các nước châu Á ? (X: Location, Population, Total Cases) (Y: Số ca mắc)

  4. Khi vaccine được phổ biến, điều đó có giúp ích cho việc chống đại dịch Covid-19 trên thế giới? (X: Date, People Fully Vaccinated, New Cases, New Deaths) (Y: True/False)

  5. Ở các châu lục, trước và sau khi tiêm vaccine, tỉ lệ tử vong của dịch bệnh Covid-19 như thế nào? (X: Continent, Date, Total Deaths, Total Cases) (Y: Tỉ lệ tử vong)

  6. Biến thể Omicron xuất hiện vào 24/11/2021 có gây nguy hiểm không ? So sánh với biến thể Delta xuất hiện trước đó ? (X: Date, New Cases, New Deaths) (Y: Số ca mắc và tử vong của hai loại biến thể)

  7. So với các bệnh như SARS, EBOLA, MERS, H1N1 thì dịch Covid-19 có nghiêm trọng hơn ? (X: Total Deaths, Total Cases) (Y: True/False)

2. Các nhóm so sánh

3. Phân tích dữ liệu sơ bộ

Thông tin các cột trong tập dữ liệu

Các thống kê cơ bản về dữ liệu

Trực quan hoá dữ liệu

Tổng số ca mắc và tử vong tích luỹ theo ngày trên toàn thế giới kể từ đầu đại dịch

Tổng số ca mắc và tử vong của dịch Covid-19 trên thế giới không ngừng tăng nhanh theo ngày kể từ đầu đại dịch đến nay. Nhưng tổng số ca tử vong lại ít hơn nhiều so với tổng số ca mắc, điều này có thể cho thấy tỉ lệ tử vong của dịch Covid-19 không cao, hoặc có thể là do độ bao phủ của vaccine trên toàn thế giới đang lớn dần nên số ca tử vong cũng tăng ít.

Tổng số ca mắc và tử vong mới theo từng ngày trên toàn thế giới kể từ đầu đại dịch

Vào khoảng cuối năm 2021, biến thể Omicron xuất hiện làm gia tăng nhanh số ca nhiễm nhưng số ca tử vong của biến thể này không cao so với biến thể Delta xuất hiện trước đó. Có lẽ do khi biến thể Omicron xuất hiện thì độ bao phủ vaccine trên thế giới cũng đã tăng cao.

Top 20 nước có tổng số ca mắc nhiều nhất

United State là nước có nền kinh tế phát triển nhưng tổng số ca mắc lại nhiều nhất toàn cầu, hơn cả nước khởi phát dịch bệnh là Trung Quốc

Top 20 nước có tổng số ca tử vong nhiều nhất

Số ca tử vong vì Covid-19 của United State lại dẫn đầu. Từ đó, ta có thể thấy sơ qua là số ca mắc và tử vong không phụ thuộc nhiều vào nền kinh tế các nước, nó còn phụ thuộc các yếu tố khác

Top 20 nước có tổng số người tiêm đủ liều vaccine nhiều nhất

Độ bao phủ vaccine trên toàn thế giới ngày càng lớn dần, bỏ xa tổng số ca mắc và số ca tử vong. Điều này đang cho thấy tín hiệu tích cực trong việc phòng chống đại dịch Covid-19